from utils import get_embedding, cosine_similarity_2, logging



# 测试数据集 (短文本 vs 语义等效长文本)
test_pairs = [
    ("HTTP", "超文本传输协议，用于在万维网上传输超媒体文档的应用层协议核心标准"),
    ("SSL", "安全套接字层协议，为网络通信提供数据加密及服务器身份验证的加密技术体系"),
    ("NASA", "美国国家航空航天局，负责民用太空计划及航空科学研究的联邦政府机构"),
    ("GPS", "全球定位系统，基于卫星导航的时空定位技术，可提供全球范围内的地理坐标信息"),
    ("WiFi", "无线局域网通信技术，使用无线电波在特定频段实现高速无线网络连接的技术标准"),
    ("PM2.5", "空气动力学直径小于2.5微米的可吸入颗粒物，大气环境质量监测的核心指标之一"),
    ("DNA", "脱氧核糖核酸，由核苷酸组成并携带生物遗传信息的双螺旋结构生物大分子"),
    ("KPI", "关键绩效指标，用于衡量组织或个人工作成效的量化管理指标体系"),
    ("IPO", "首次公开募股，指企业通过证券交易所首次向公众发行股票的公司上市流程"),
    ("AI", "基于机器学习算法的智能系统，能够模拟人类认知功能并执行复杂任务的计算机科学技术"),
     # 情感表达 
    ("我爱中国", "我深深热爱着这个拥有五千年文明的伟大国家——中华人民共和国"), 
    ("春天很美", "万物复苏的春季，绽放的花朵与和煦的阳光构成了一幅令人陶醉的自然画卷"),
    
    # 技术场景  
    ("密码很重要", "在现代数字安全体系中，高强度加密密码是保护个人隐私的第一道防线"),
    ("备份数据", "定期将重要文件存储在云端或外部硬盘是防止数据丢失的关键措施"),
    
    # 生活建议 
    ("多喝水", "医学专家建议成年人每天饮用约2000毫升的纯净水以维持新陈代谢平衡"),
    ("早睡有益", "科学研究表明晚上11点前入睡能显著提升人体免疫系统和认知功能"),
    
    # 社会观察 
    ("科技改变生活", "从智能手机到人工智能，技术创新正在彻底重塑人类社会的运作方式"),
    ("学习很重要", "持续的知识积累和技能提升是适应快速变化的全球化经济的基础"),
    
    # 特殊对比案例 
    ("小心地滑", "请注意地面湿滑情况，避免因积水或油渍导致意外摔倒受伤的安全警示"),
    ("保持安静", "本区域需要绝对的声音控制以维持专注的学习或工作环境，请勿喧哗")
]


# 日志打印测试用例组的相似度分数
logging.info(f"'test5 >>>>>>>>>>>'")
for short, long, in test_pairs:
    # 获取两个文本的嵌入向量
    emb_short = get_embedding(short)
    emb_long = get_embedding(long)
    
    # 计算相似度
    similarity = cosine_similarity_2(emb_short, emb_long)
    
    # 打印相似度分数
    print(f"'{short}' 与 '{long}' 的相似度分数为：{similarity}")
    logging.info(f"'{short}' 与 '{long}' 的相似度分数为：{similarity}")